Source | # of sentences | Average logarithmic rank |
---|---|---|
Κατάλογ | 184 | 5.17 |
Ολλανδία | 11 | 5.31 |
Γάλα | 12 | 5.38 |
Βόννη | 13 | 5.40 |
Έντμοντον | 12 | 5.41 |
Αζατρού | 15 | 5.48 |
Αφρική | 22 | 5.49 |
Φρανκενστάιν ή ο Σύ | 11 | 5.50 |
Kekkei Genkai | 12 | 5.51 |
Ιράκ | 11 | 5.53 |
Αφθαρσία της ύλης | 12 | 5.55 |
Πνευματική ιδιοκτησία | 12 | 5.55 |
Παρίσι | 13 | 5.56 |
Λούντβιχ Βιτγκενστάιν | 17 | 5.56 |
Άγιος Λουκάς Συμφερουπόλεως | 11 | 5.56 |
Tenten | 14 | 5.56 |
Ιησούς Χριστός | 14 | 5.58 |
Shadow hearts | 11 | 5.58 |
Παναχαϊκή Γ.Ε. | 11 | 5.61 |
Ιωσήφ Στάλιν | 35 | 5.61 |
Χέρμαν Γκαίριγκ | 13 | 5.63 |
Ωριγένης | 16 | 5.63 |
Ιησούς Χριστός, ιστορικότητα | 17 | 5.63 |
Cicindela hybrida | 11 | 5.63 |
Μεγάλος Βόρειος Πόλεμος | 16 | 5.64 |
Βέλγιο | 13 | 5.65 |
Χίος | 11 | 5.66 |
Απόστολος Παύλος | 32 | 5.66 |
Ασία | 14 | 5.66 |
Spore (ηλεκτρονικό παιχνίδι) | 18 | 5.66 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
26 | 10.23 | |
Κατάλογος έργων όπερας | 18 | 9.36 |
Διοικητική διαίρεση νομού | 36 | 9.17 |
Διοικητική διαίρεση | 12 | 9.07 |
Διοικητική διαίρεση νομού Χανίων | 27 | 8.98 |
Διοικητική διαίρεση νομού | 19 | 8.92 |
Κατάλογος βουνών της Ελλάδας | 20 | 8.87 |
Διοικητι | 15 | 8.65 |
Διοικητική διαίρεση νομού Άρτας | 26 | 8.44 |
Διοικητική διαίρεση νομού | 21 | 8.41 |
Διοικητι | 11 | 8.40 |
Διοικητική διαίρεση νομού Λέσβου | 23 | 8.40 |
Διοικητική διαίρεση νομού | 31 | 8.33 |
11 | 8.31 | |
Διοικητική διαίρεση νομού Ηλείας | 42 | 8.06 |
Διοικητική διαίρεση νομού | 33 | 8.05 |
Διοικητική διαίρεση νομού Ευβοία | 25 | 8.02 |
Διοικητική διαίρεση νομού Αχαΐας | 41 | 7.97 |
Κατάλογος Μεγάλων Βεζίρηδων | 20 | 7.93 |
Κατάλογος Εθνικών Οδών Ελλάδας | 14 | 7.89 |
Διοικητική δια | 15 | 7.88 |
Διοικητική διαίρεση | 13 | 7.88 |
Δι | 17 | 7.85 |
Διοικητική διαίρεση νομού Κιλκίς | 12 | 7.84 |
Θώρα Μπιρτς | 12 | 7.84 |
Διοικητική διαίρεση | 41 | 7.83 |
Διοικητική δια | 18 | 7.79 |
Διοικητική δια | 14 | 7.77 |
43 | 7.77 | |
Διοικητική διαίρεση | 66 | 7.71 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words